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processor computer consists in esiab- 
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I functional constituent of the applica- 
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a set of relations on different variables 
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deduce at least one solution therefrom. 
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sur les diff6renies variables relatives 
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fa^on concurrente ces relations, el i 
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PROCEDE GENERIQUE D'AIDE AU PLACEMENT D* APPLICATIONS DE 
TRAITEMENT DE SIGNAL SUR CALCULATEURS PARALLELES 

La presente invention se rapporte d un proc6de g6n6rique d'aide 
au placement d'applications de traitement de signal sur calculateurs 
parall^les. 

Le placement (< Mapping » en anglais) cnnslste k distribuer les 

5 donn6es et les traitements lids d un traitement. tel qu'une application de 
traitement de signal, sur un calculateur. en g6n6ral un calculateur d 
architecture paralldle. Ce placement est statique, car I'ensemble des choix 
du placement est pris avant I'exdcution de I'application plac6e, contrairement 
au placement dynamique. 

10 On connatt, pour realiser le placement, de nombreux outils et 

environnements de programmation. On citera, entre autres, I'outil SynDEx de 
I'INRIA pour le traitement de signal et d'image, I'outil PTOLEMY de 
rUniversite de Berkeley, le HPF pour le calcul scientifique, le c FX 
compiler », le GEDEA de la Societe LOCKHEED MARTIN. ... Cependant, 

15 peu d'outils connus permettent I'automatisation complete du placement. De 
plus, meme si I'objectif g6n6ral des outils tels que SynDEx ou GEDEA est de 
foumir i Tutilisateur une aide au ddveloppement et d I'optimisation 
d'applications temps r6el impl§ment6es sur une architecture 
multiprocesseurs. g§ndralement h6t6rog^e, en vue de la realisation rapide 

20 de prototypes, ces outils ne gdrent qu'un niveau de granularity grossier (la 
granularity 6tant le degr§ de finesse et de precision que I'on veut obtenir 
pour une application et son impl§mentation sur une architecture donnee). 
L'environnement Ptolemy est essentiellement un environnement de 
simulation et de prototypage de systdmes h§terog6nes integrant du materiau 

25 et du logiciel. 

De plus, tous ces systfemes connus permettent, en g§neral, 
d'estimer les performances d'un placement pour une solution donnee, tout en 
indiquant le reseau de communication entre processeurs le plus efficace, 
ainsi qu'un code g6n6r6 automatiquement pour chacun des processeurs du 

30 syst^me. 

C'est pourquoi. les langages d6dl6s, tel le HPF, proposent des 
primitives de placement manual. A partir de ces primitives, le programmeur 
doit determiner lui-m§me le bon placement II en r§sulte que I'utilisation des 
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ressources offertes par des super-calculateurs comportant de tres nombreux 
processeurs est loin d'etre optimale, tant la fonction de placement est 
complexe. En efFet, cette fonction indut le decoupage, la distribution et 
ralignement des donnees sur las differents processeurs. la repartition des 
5 taches de calcul et de communication, ainsi que leur ordonnancement dans 
le temps. De plus, cheque choix relatif a Tune de ces fonctions est 
intimement lie a Tarchitecture du calculateur et aux caracteristiques 
physiques des architectures paralleles. 

La presente invention a pour objet un precede g6nerique d'aide au 

10 placement d'applications de traitement de signal systematique sur un 
calculateur a architecture parallele homogene, precede qui permette 
d'obtenir automatiquement au moins une solution optimisee de placement, a 
un niveau de granularite aussi fin que possible, et ce, a partir d'une 
description fonctionnelle complete de Tapplication, et du calculateur utilise. 

15 Le precede conforme a invention consiste, pour cheque 

constituent fonctionnel et physique de rapplication, a dtablir un modele defini 
par un ensemble de relations sur les differentes variables relatives a ce 
constituent, afin de modeliser les contraintes, ^ resoudre de fa^on 
concurrente les relations ainsi ^tablies, ^ en d^duire au moins une solution, 

20 et, en cas d'obtention de plusieurs solutions, a choisir celle optimisant au 
moins un critere. 

Les contraintes sont celles relatives aux sous-fonctions de la 
fonction de placement, a savoir: le partitionnement. Talignement, la 
distribution de donnees et le sequencement des traitements. 

25 La presente invention sera mieux comprise a la lecture de la 

description d§taillee d'un mode de mise en osuvre, pris a titre d'exemple non 
limitatif et illustrd par le dessin annexe, dont la figure unique est un schema 
fonctionnel de la fonction placement, mise en oeuvre conform^ment a 
Tinvention. 

30 La presente Invention se rapporte au traitement de signal 

systematique, c'est-a-dire non conditionnel. non soumis d des ordres ou 
actions extSrieurs. Ce traitement est, en outre, dStemniniste et structure. Ce 
traitement peut etre, par exemple, de la compression d'impulsions ou ie 
calcul de transformees de Fourier (FFT). 
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Les applications de traitement du signal systematique sont 
form§es de s6quences de tSches, que I'on peut exprimer par des nids de 
boudes (boudes imbriqu6es et d bomes definies) bien structures et 
parallSles. Cheque nid de boudes contient un appel a une procedure ou 

5 macro-instrudion correspondent en g6n6ral a une transformation de tableau 
c'est-§-dire ^ une fonction d'une librairie de traitement du signal telle qu'une 
FFT. Une telle transformation a 6t6 decrite dans ie brevet fran^ais n* 2 732 
787. Les traitements sont r6guliers (non soumis a des tests ext§rieurs) et 
s'effeduent sur des signaux multl-dimensionnels. les donn6es sont 

10 organis6es en grands tableaux dont les dimensions (par example source, 
frequence, temps de recurrence, temps de pointage) portent les vedeurs sur 
lesquels vont s'effeduer les traitements individuels. Le tableau s'adapte 
fadlement aux dimensions du systeme de capteurs. et permet de donner 
Informatlquement la fomiulation mathematique des traitements. Ainsi. les 

15 indices des variables composant les formules deviennent des indices de 
tableaux. 

Ces procedures ont un cout d'execution fixe, indus dans la 
specification de I'application. Celle-d est globalement representee par un 
graphe de flot de donnees acydique. L'application est, en effet, sous forme 
20 d'assignation unique, c'est-^-dire que cheque element de tableau n'est mis 
qu'une seule fois e jour par Tapplication. Dans une mise en oeuvre paralieie, 
la distribution de ce grand tableau sur les noauds de calcul change d'un 
traitement au suivant, provoquant ainsi un probieme dassique du 
paralieiisme : le changement d'axe. ou « comer turn ». consommant 
25 beaucoup de ressources de communication. 

Pour pouvoir mettre en cauvre invention, ii faut deaire 
fbndionnellement l'application de traitement de signal, et plus 
partlculierement les composantes de cette applications, d savoir les taches. 

Une tache, aussi appeiee, routine, procedure ou traitement, 
30 accepte en entree et en sortie un ou plusieurs flux de donnees. Ces flux sont 
detinis h partir des tableaux d'entree et de sortie, de la fa9on exposee dans 
te susdit brevet frangais n' 2 732 787. et que Ton rappelle sucdndement d- 
dessous. Sur cheque tableau consid6re, un flux represente les donnees 
accedees en ledure ou ecriture par un et un seul traitement eiementaire. 
35 L'ensemble de ces donnees constitue un acces eiementaire ou domaine de 
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la transformation SIdmentaire. Un meme traitement est reitere sur un espace 
d'itdration ddfini par rapplication. Certaines proprietds sont associ6es k ce 
ncBud du traitement : 

• La formulation du traitement : elle decrit la formule de la 
5 transformation 6lementaire. Les donnees de sortie sont 

exprimees en fonction des donn6es d'entree. Les acces 
6l§mentaires en lecture ou en ecriture sont specifies en 
fonction des indices des tableaux. Les dimensions des 
tableaux et Tespace memoire requis pour executor un 
10 traitement sur tout Tespace d'iteration du traitement sont 

dgalement specifies. 

• La complexity du calcul : elle exprime la puissance de calcul 
requise par le noeud de traitement en operations/seconde. Elle 
est li^ a i'architecture utiiisSe, et represente une donnee 

1 5 d'entree de rapplication. 

Le flux de donnees peut &tre conditionne par les donnees ou les 
indices des tableaux (il depend de rapplication). Comma pour les noeuds, 
des proprietes sont associees aux flux de donnees : 

• Le codage des donnees. Ceiles-ci sont codees sur un certain 
20 nombre de bits (12-16-32-64-...), elles representent 

generalement des nombres reels a virgule fixe ou bien des 
nombres complexes (codes sur deux nombres entiers). 

• La recurrence d'un flux. Cette valeur est une fonction de la 
puissance de calcul des traitement dont le flux provient des 

25 recurrences des flux entrants de ce meme traitement. 

• L'acquisition est consid§r6e comme une tdche d part entiere 
comprenant un flux de sortie, et une recurrence (frequence 
d'acquisition). 

• Le nombre de donn6es Ii6es k une transformation 
30 6l6mentaire. II definit le nombre de donn§es que requiert la 

transformation eiementaire du nceud destination. Ces donnees 
sont dites produites par le nosud source et dites consommees 
par le noeud destination. Toutefois, il arrive que des donnees 
soient calculdes et non utitisees par la suite (on n'exploite pas 
35 la totality des donnees d'une biblioth^que, qui peut etre 
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d'usage g6n6ral). ce qui n'implique pas de duplication de 
calcul. 

Les acc6s 6l6mentaires a un tableau sont des fonctions affines 
des indices de ce tableau, des constantes et des variables scalaires privSes. 
L'espace d'iteration d'un traitement est quant a lui compl^tement defini par 
des fonctions affines portant uniquement sur les indices des differents 
tableaux. 

Pius precisement. une tache se decompose en deux parties : 

• L'espace d'lt6rations exteme decrivant le domaine de 
calculs. L'une des dimensions peut fetre inflnie. Elle repr§sente 
le temps. Ce domaine est repr6sente par un nid de boucles 
parfaitement imbrique et totalement parallftle. II n'y a aucune 
d§pendance en §criture. par centre, il peut exister des 
recouvrements en lecture. C'est ce domaine de calculs qu'il 

, 5 faut placer et ordonnancer sur la machine parallele. 

• L'espace d'it6rations interne d§crivant I'ensemble des 
donnies qui sont utiles au calcul de la macro-instmction ou 
procedure. Les fonctions d'acces aux elements de tableau sont 
des fonctions pseudo-affines. Des fonctions modulo sont 

20 parfois utilis6es pour prendre en compte le caractere cyclique 

des capteurs pouvant §tre relics au calculateur. 
On peut utiliser comme formalisme de description fonctionnelle de 
I'application de TSS (traitement de signal systematique) un graphe de flot de 
donndes (Data Flow Graph) qui peut provenir de n'importe quel fonnalisme 
25 classique de description d'application du signal sous r6serve qu'il contienne 
les informations precis6es d-dessus. En particulier. on peut decrire 
I'application a partir des langages suivants : 

• Le langage « Array-OI » (expose dans le susdit brevet fran^ais 

2 732 787). 
30 • Le langage ALPHA, 

• Un langage d6crivant un ensemble de nids de boucles 
parfaitement Imbriqu^s, 

• Ou le formalisme de description de type MD/SDF. 

Le placement consiste & distribuer automatiquement les 
35 operations de ti-aitement de signal a effectuer sur un flot de donn6es. et ces 
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donnSes elles-memes, sur un calculateur a architecture multiprocesseurs 
paralldle en tenant compte des differentes contraintes de ressouroes 
materielles ainsi que des performances impos§es au calculateur. 

L'architecture parallele dont tl est question id est une architecture 
5 paralldle homogene, dans laquelie tous les processeurs sent identiques, de 
type SIMD/SPMD (« Single Instruction/Program Multiple Data »). c'est-^-dire 
dans laquelie tous les processeurs executent la meme instruction ou la 
meme s6quence d'instructions (par exemple un programme) sur des 
donnees differentes, Le routage de Tinformation entre les differents 

10 processeurs est de type statique, c'est-a-dire que les chemins de donn6es 
entre processeurs sont imposes avant Tinitialisation de cheque mode (ils sont 
ddfinis lors de la compilation de ('application). A un instant donne, les macro- 
instructions executees en paralldle sur chacun des processeurs sont 
identiques. Les donnees necessaires au traitement de la macro-instruction 

1 5 doivent resider dans la memoire locale du processeur qui {'execute. 

Pour les applications de traitement de signal, les « dimensions » 
de Tarchitecture du calculateur utilisd sont des contraintes imperatives du 
placement. Cependant, ces contraintes ne sont pas prises en compte par les 
precedes dassiques de placement automatique (tels que les precedes dtds 

20 d-dessus) et ne sont done pas traitees a cet effet dans Tetat de Tart. Les 
paramdtres caracteristiques desdites dimensions sont : 

- Le nombre de processeurs disponibles, qui sont tous de 
puissance egale. 

- La puissance d'un processeur. Pour les applications de 
25 traitement de signal en temps reel, le temps de latence des 

calculs (temps au bout duquel les resultats de ces calculs sont 
disponibles) est tres important. Ce temps peut §tre bomd par 
une valeur maximale, et il depend de la puissance du 
processeur qui realise le calcuL Cette puissance est exprimde 
30 en nombre de cydes de calcul par seconde. 

- La memoire disponible. Elle est repartie uniformement sur 
■'ensemble des processeurs du calculateur. 

- Les caracteristiques de communication entre processeurs. 
Elles sont definies en termes de bande passante, c'est-a-dire 

35 en nombre de cydes machine ndcessaires d assurer la 
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communication d'un paquet de donnees entre les processeurs 
d'une paire de processeurs. La dur§e des communications 
n'est alors pas fonction de la topologie du calculateur. 
Le placement dont 11 est question ici comprend les quatre sous- 
5 fonctions de partitionnement d'alignement. de distribution et de 
s6quencement. Jusqu'a present, ces quatre sous-fonctions 6taient traitees 
chacune s6par6ment. Par centre, la presente invention pr§voit de traiter 
simultanement ces sous-fonctions et de fagon concun-ente. Ce placement 
permet de trouver {'adequation entre un programme (dont le parallelisme est 
1 0 sp6cifi6 ou non) et un calculateur a architecture parall§le homogene telle que 
specifi§e d-dessus. II consiste k distribuer les traitements et les donn6es sur 
les diff6rents processeurs du calculateur et a 6tablir leur sequencement. en 
optimisant le parallelisme de I'application. 

Ce placement comprend la determination des diverses contraintes 
15 li§es d I'application. Ces contraintes sont. d'une part, des contraintes 
« applicatives » (liees d la taille des taches elementaires specifiques du 
traitement de signal syst§matique), d'autre part des contraintes liees a 
I'architecture du calculateur (nombre de processeurs, capacite memoire. 
topologie du reseau de processeurs et debit de donnees. et enfin des 
20 contraintes Ii6es a l'ex6cution (ordonnancement affine, recouvrement entre 
les communications de donnees et les calculs effectu§s). 

La mod6lisatlon par contraintes consiste essentiellement k 6tablir, 
pour chaque contrainte, une relation entre au moins deux variables ou une 
relation entre une variable et une valeur donn6e (generalement un seuil). 
25 Cette relation est une relation lineaire (gen6ralement un polynome du 1* 
degr§). 

Le proced6 de invention, partant de cette mod6lisation, effectue 
la resolution concurrente (non sequentielle) de tous les modules, pour en 
diduire une ou plusieurs solutions satisfaisant toutes les contraintes. Dans le 
30 cas de plusieurs solutions satisfaisantes, on peut choisir celle satisfaisant de 
la meilleure fa9on un ou plusieurs entires (dont des exemples sont cites ci- 
dessous), et on peut avantageusement proceder de fa9on heuristique. 

Les langages de specifications d'applications de signal, les 
polynomes en nombres entiers et les applications affines permettent de 
35 modellser pr6cis6ment les fonctionnalites du placement. L'algSbre Iin6aire 
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permet de constaiire les diffirents modeles au niveau de granularite requis 
par la complexity du probleme gdn^rai. Ces modeles sont issus de I'dtat de 
i'art du placement automatique [J. Li & M. Chen, « The data alignment phase 
in compiling programs for distributed memory machines Journal of Parallel 

5 and Distributed Computing, p. 213-221, Vol. 13, 1991 ; P. Feautrier, 
« Toward Automatic Distribution », Parallel Processing Letters, p. 233-244, 
Vol. 4. n** 3, 1994; M. Dion. « Alignement et distribution en parallelisation 
automatique ». Th§se Infomiatique, ENS. LYON, 1996] et ont fait Tobjet 
d'une adaptation au contexte applicatif du signal, lis sont exprimes a Taide de 

10 contraintes lineaires et non lineaires integrables au precede de Tinvention. 
Ce precede s'impose alors d'une part par sa capacite a trailer I'algebre 
propre aux difFerents mod&les et d'autre part par sa dimension de langage 
qui facilite Texpression et la composition d'heuristiques et de contraintes 
spScifiques a un domaine, et/ou de strategies complexes permettant le 

15 controle des etapes de resolution. Les donnees manipulees par ie syst^me 
de placement sont done des Elements de tableaux, des macro-instructions, 
dont il faut necessairement mod6liser le comportement selon les fonctions a 
r6soudre. L'ensemble des modeles decrits ci-dessous sont entierement 
fomnalis6s a partir de Talgebre lineaire, permettant le controle de la 

20 granularite pour chaque module. Chaque modele definit une composante de 
la compilation d'une application de traitement du signal sur machine 
paralldle. 

• La distribution des calculs et des donnees sur les processeurs, 
est en fait un probleme de ressources disjonctives (exclusives 

25 les unes des autres). 

• L'ordonnancement des traitements en tenant compte des 
ressources mSmoire et communications, representees par des 
contraintes capacitives. 

Le but est d'optimiser diffdrents crit&res comme la latence de 
30 rapplication ou le cout (financier) de I'architecture cible. De plus, de 
nombreux meddles spedfiques au probleme de placement ont 6t6 
d6velopp§s et viennent completer la description du probleme, comme par 
exemple les communications ou le temps physique. Compte tenu du nombre 
de t§ches et du nombre de donn§es d considerer lors du placement, chaque 
35 moddie est defini en intention plutdt qu'en extension. La possibilite de 
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travailler ^ plusieurs niveaux de granularite s'avere fondamentale pour le 
probl6me de placement, et I'on utilise pour cela une formulation algebrique 
du partitionnement. Celui-ci fixe la granularite des autres modules, il 
entretient done de nombreuses relations au sein meme du module 
conceptuel. De plus, les contraintes de dependances relient a de 
nombreuses reprises plusieurs modeles. ce sont done des contraintes 
globales et la clef de voute du probleme a resoudre. Enfin, on dispose 
d'heuristiques locales a un ou plusieurs modeles. Cependant, on ne connalt 
pas d'heuristique globale. Le coeur de la presente invention utilise I'approche 
multi-modeles par contraintes concurrentes [J. Jourdan. F. Pages. D. 
Rozzonelli & A. Demeure. « Data Alignment and Task Scheduling On Parallel 
Machines Using Concurrent Model-based Programming ». Proc. ILPS 94. 
1994], ce qui pemiet d'appr6hender le proWdme du placement automatique 

de manidre globale. 

Selon le precede de rinvention. les modeles sont etablls a raison 
d'un module par constituent, qu'il soit fonctionnel ou physique. Par definition, 
un modele doit etre vu comme I'ensemble des specifications du 
comportement du constituant qu'il modelise. 

On a represente sur le schema fonctionnel de la figure unique du 
dessin les differents modeles mis en oeuvre pour la fonction « placement » 
r6ferenc6e 1 dans son ensemble. Ces modeles sont: I'architecture des 
processeurs cibles (2). la capacite de la m6moire (3). le partitionnement des 
flots de donnees (4). les communications inter-processeurs (5), 
I'ordonnancement ev6nementiel ou sequencement des calculs (6). le temps 

i physique ou temps de calcul (7) et les entrees-sorties de signaux (8). 

Les differents liens 6tablis entre ces modfeles sont de deux sortes : 
les « hyperiiens » representes par des fleches complexes (9. 10) en forme de 
polygones irregullers . qui relient chacune plusieurs modeles ensemble, et 
des liens simples. repr6sent6s par des traits flech6s chacun d leurs 

3 extr6mit§s et reliant chacun deux modeles. 

La fleche complexe 9, qui con-espond au critere « nombre de 
processeurs ». relie les modules 2. 3, 4 et 5. La fl6che complexe 10. qui 
correspond au critere « d6pendances ». relie les modules 3. 4, 5 et 6. 
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Le modele 2 est relie par des liens simples aux modeles (3) 
(critere « taille memoire »). 5 (critere « bande passante ») et 6 (critere 
« mode de programmation »). 

Le modele 3 et relie par des liens simples aux modeles 4 (critere 
5 « volume de donnees i^) et 6 (critere « distance et cardinalite). 

Le modele 4 est reli6 par un lien simple au modele 7 (critere 
« volume de calcul »). 

Le module 5 est reli6 par des liens simples aux modeles 6 (critere 
« ev6nements de communication ») et 7 (critere « dur6e de 
10 communication »). 

Le modele 6 est relie par un lien simple au modele 7 (critere 
« distance et cardinalite »). 

Enfin, le modele 7 et relie par un lien simple au modele 8 (critere 
« latence et recurrence »). 
15 Dans les modules deaits ci-dessus, les spidfications du 

comportement des differents constituents de ces moddles. sont exprimes a 
partir de relations mathematiques. On peut done en deduire que les modules 
sont identifi6s a {'ensemble des relations definies sur leurs variables. Ces 
relations sont soit des primitives du langage utilise (primitives faisant partle 
20 d'une bibliotheque de relations), soit des relations definies par Tutilisateur. 

Du fait que les modSles constituent eux-m§mes Tessentiel du 
proc6de. les proprietes du paradigme relationnel (ensemble des regies 
regissant les relations pouvant etre 6tablies entre les modeles) ont des 
consequences imm6diates sur les propri6t§s des composantes 
25 fonctionneiles du precede. Les propri6tes du paradigme relationnel sont les 
suivantes : 

• Description fonmeile : Les relations representent une 
description formelle du comportement du constituent En effet. 
pour chacune des sous4onctions du placement, une 
30 modelisation mathematique a ete sp6clfiee formellement. Dans 

la plupart des cas, elle est issue des travaux des specialistes 
des parailelisations, et elle a ete adaptee non seulement au 
cadre applicatif qu'est le traitement du signal mais 6tendue au 
contexte de la modelisation concun*ente. 
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• « Adirectionalit6 » : Le concept de relation pemnet 
d'abandonner le paradigme fonctionnel bas§ sur la distinction 
des entrees/sorties. Une relation assure une reversibilite totale 
des arguments. Ceci permet de ne faire la distinction qu'k 
I'execution, en fonction de la nature des arguments (connus et 
inconnus). 

• « CompositionaUt6 » : La composition des modules 
relationnels est tout simplement la conjonction loglque des 
relations qui constituent le modele. Ceci implique une 
semantique simple de la compositionalit6. L'ensemble des 
solutions d'un modele composite est tout simplement 
I'intersection des solutions des modeles. 

Elles contribuent § I'universalitd du programme. Les proprietes du 
proc6d6 induites sont alors : 

• Un domaine d'utilisation 6largl : Un module peut etre utilise 
dans plusieurs contextes en fonction du but S r6aliser. 

• Une Interchangeabilit6 accrue : Un modele peut §tre modifie 
ou completement redefini par la donnee d'une nouvelle 
specification sans avoir a intervenir sur les autres modeles. 

• Une compositionalit6 intrinsfeque : Le modfele d un systeme 
est construit a partir du module de ses composants. 

• Une malntenabllitt simple : La maintenabilit6 reste locale S 
cheque moddle. 

• Une extensibilitd ais6e : Etendre un systeme revient ^ le 
25 composer avec le systeme existent. 

Dans toutes les solutions logicielles connues de parall6lisation. 
I'etat d'un systeme est caracterls6 par le contenu de la memoire a un instant 
donne. Les operations elementaires sont la lecture et I'ecriture sur. ou a 
partir de la m6moire. L'6tat d'un systeme n'est alors caract6ris6 que par 

30 l'ensemble des valeurs des cases m6moires associ6es aux variables qui le 
composent. La diff6rence fondamentale entre le precede de I'invention et les 
autres solutions logicielles est la representation de cette memoire. Dans le 
cas de I'invention, la m6moire n'est pas rdduite ^ un ensemble de cases 
m6moire mais constitue en elle-meme une conti-ainte. Cette demidre est 

35 capable de foumir de I'infomiation partieile sur l'ensemble des variables qui 
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cx)mposent le systdme. II est intdressant de noter que tout le raisonnement 
mis en osuvre par ies contraintes est base sur ce paradigme de manipulation 
d'infomiations partieiles. L'avantage des contraintes est tout simplement du 
au fait que le systeme en cours d'eiaboration peut prendre des decisions 

5 sans avoir a attendre qu'il soit entierement determine. 

La resolution d'applications industrieiles ne se cantonne pas a une 
probl6matique bien definie. mais integre la combinaison de plusieurs sous- 
probldmes. 11 faut resoudre des problemes d'optimisation combinatoire sur 
des problemes multi-composants, multifonctions dans lesquels Ies 

10 contraintes sont tr^s h6terogenes et ou il faut considerer Ies diff6rents 
Elements a differents niveaux de granularity. Uinvention offre des solutions 
penDettant la coexistence de modeles se recouvrant partiellement, se 
coordonnant et se decomposant. 

Une alternative pour Ies problemes muiti-composants, 

15 multifonctions : la specification de modules pour cheque composant et pour 
cheque fonction qui se combinent ensuite lors de la r6solution d'un but, 
permet d'apporter une alternative a la resolution de problemes de syst^mes. 
De plus, souvent Ies modeles sont tres heterogenes. Certains peuvent 
s'exprimer exclusivement ^ I'aide de contraintes lineaires, d'autres peuvent 

20 n6cessiter des contraintes symboliques ou booleennes. 

L'invention permet ind6pendamment de rhet6rogeneit6 des 
contraintes, par de simples interactions locales, de garantir une coordination 
globale du systeme. 

Dans le cas des problemes d'optimisation combinatoire, le 

25 precede de invention offre une bonne solution technologique, car elie 
permet, lors de la resolution, I'utilisation concurrente de tous Ies modules 
redondants. 

En effet : 

• La resolution de probldmes hautement combinatoires se 
30 resume rarement a une seule formalisation mathdmatique. 

Souvent, pour ne pas dire toujours. des formal isations 
compl§mentaires sont necessaires. Un exemple pourrait etre 
Ies formalisations redondantes qui tirent avantage des 
proprietes des solutions partieiles, un autre exemple serait la 
35 prise en compte des symetries du problemes, etc. 



wo 00/60460 




PCT/FROO/00824 



10 



15 



• Le probl§m8 qui se pose alors est d'utiliser en mdme temps 
toutes ces informations. Dans le contexte d'approches plus 
classiques. comme la recherche op6rationnelle ou la 
programmation en nombres entiers. cette 6tape s'av6re 
toujours tres delicate. En effet. les programmes 6crits dans un 
langage imp6ratif necessitent un temps de developpement non 
n6gligeable et sent souvent diffidles ^ 6tendre et d modifier. 
L'invention pennet 6galement de r6soudre les probl6mes 
relationnels des modules a plusieurs niveaux de granularity. 

L'efficacite de la realisation finale depend de trois parametres. 
Tout d'abord. elle depend crudalement de Tefficacite du systeme de 
contraintes utilise, du contrdle que Ton a sur la recherche d'une solution (voir 
ci-dessous). mais aussi. consid6rablement. de la granularity consid6ree dans 
la modelisation. L'exp§rience montre qu'il est indispensable de consid6rer 
diff6rents niveaux de granularite et de pouvoir raisonner sur les differents 
niveaux Ici encore, l'invention ofTre une solution en pemiettant la descnption. 
la coexistence et la coordination de modeles a differents niveaux de 
granularite. Ce dernier point n'a pas encore ete vraiment exploite dans des 
applications. 

La fonction « placement » est alors modelis6e au travers de 
differents modules issus des travaux des speciallstes de la « paralldlisation 

automatique » comme : 

• Le partitionnement qui exprime la distribution des calculs et 

des donn6es sur les prooesseurs. 

• Les d6pendances qui caraderisent les iterations acc6dant aux 

memes donndes. 

• L'ordonnancement qui consiste a organiser rex6cution des 

traitements parall^les dans le temps. 

• L'Interpfiase qui donne les communications entre deux 
30 phases de caicul partitionnees. 

• L'architecture qui est en fait un ensemble de param6tres 
c»mme le nombre de processeurs. la bande passante. ... 

• Les communications. 

• La m6moIre qui d§finit au travers d'une contraihte de capadtd 
35 pour laquelle on est sur de pouvoir calculer une allocation. 
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• Le signal temps r6el qui est constitue de la iatence et des 
contraintes d'entrSes/sorties (periodes, ...). 

De maniere gSnerique, un module se compose de definitions de 
variables sur lesquelles reposent les contraintes propres aux modules. 
5 Le procede de I'invention permet a la fois de resoudre le probleme 

du placement automatique d'applications traitement de signal sur machines 
paralldles et permet ^ Tutilisateur de manipuler une solution foumie sans 
violation des contraintes posees par le systeme global. Cette approche 
s' insert t dans un contexte de codesign et de prototypage virtual. A partir 
10 d'une description formelle de rappltcation (comme par exemple un langage 
de type MD/SDF developp^ a Berkeley, une description fonctionnelle en 
ARRAY-OL ou une specification ^ I'aide de nids de boudes) Toutil produira 
un pseudo-code genSrique de placement pour des machines cibles 
homogenes constderees. Ce pseudo-code sera ensuite directement 
1 5 interfagable avec les differents compiiateurs des architectures cibles. 
Ce procede peut done permettre a I'utilisateur : 

* de safsir une solution partielle : I'utilisateur saisit une solution 
partielle de placement et I'outil poursuit sa recherche en 
completant la solution de placement qui sera vaiidee par 

20 conception. Par exemple : 

> Lutilisateur a configure sa machine avec un nombre 
insuffisant de processeurs pour le type de placement qu'il 
ddsire. Le procdde va permettre de trouver le nombre 
minimal de processeurs nScessaires au placement 

25 impose dans {'ensemble des processeurs disponibles. 

> L'utilisateur peut imposer un sequencement des calculs. 
Le systfeme va alors trouver les partltionnements, c'est-a- 
dire les distributions des donnees et des calculs en 
memoire et sur les processeurs adequats. 

30 > De mfeme. Tutilisateur peut imposer un partitionnement 

initial, le systeme va trouver les ordonnancements 
compatibles. 

- de jouer sur les compromis (« trade-off usuels : le 
procede permet a Tutilisateur de valider les compromis entre 
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les paramdtres sensibles du placement en phase de 
conception de I'application, compromis entre : 

> Nombre de processeurs/Bande passante, 

> MdmoireAemps reel, 

> Nombre de processeurs/temps reel, 

> Bande passante/temps reel, 

> Memoire/Bande passante. 

- de visualiser des solutions complexes comme par exemple 
I'ordonnancement. le decoupage des donnees. I'affectation 
etc... 

- de dimensionner la machine : le precede permet de specifier 
les ressources n6cessaires pour placer une application 
particuliere sur un type de machine donn§e sans violer les 
contraintes applicatives. Cela consists it prendre en compte les 
dimensions et le nombre de cheque composant materiel 

(Hardware). 

> Nombre et puissance des processeurs, 

> Performance du r6seau d'interconnexions, 

> Taille et type de memoire (memoire vive et m6moire . 
20 cache synchrone/asynchrone, disque dur). 

> Dimension des diff6rentes interfaces systemes. 
. de choisir le critfere d'optimisation du placement : 

> Dimension machine : le proc6d6 pemnet de configurer 
une machine minimale pour une application donn6e. 
L'utilisateur peut, par exemple. choisir de configurer une 
machine avec un nombre minimal de processeurs. 

> Latence: le proced§ permet de trouver le (ou les) 
placement(s) qui minimise(nt) le temps d'ex6cution de 
rapplication sur une machine cible pr6d6finie par 

30 l'utilisateur. 

> Efficacit6: le proc6d6 pennet de maximiser le 
parall6lisme du (ou des) placement(s) de I'application sur 
une machine dble pr6d6finie par l'utilisateur. 

> CoOt : en int6grant un coQt (financier par exemple) sur 
chacun des composants mat6riels, le proc§d6 pennet de 
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trouver le (ou les) placement(s) de i'application qui 
minimise(nt) ce cout 

> Temps d'occupation de la machine : le precede permet 
de trouver le (ou ies) placement(s) qui mintmise(nt) le 

5 temps d'occupation de la machine cible predefinie par 

Tutilisateur afin de pouvoir eventuellement placer une 
seconde application. 

> Recurrence d'entr^e ou de sortie : le precede permet 
de trouver le (ou les) placement(s) qui minimise(nt) la 

10 cadence d'entree et/ou de sortie des resultats produits 

par un ensemble de traitements. Ces contraintes sent 
souvent tmposees dans le cadre des signaux viddo, 
acoustiques et/ou hyperfrequences. 

- de determiner ies param&tres du signal comma le modes 
15 des entrees/sorties, la latence, la recurrence (d'entrSe et/ou de 

sortie) pour une machine et une application donnSes. 
De plus, la presence d'un ensemble d'heuristiques permet ^ 
Tutilisateur de soulager la recherche d'une solution, en Torientant. L'ingenieur 
peut en effet ; 

20 - choisir une ou plusieurs heuristiques dans un ensemble 

pr§defini, c'est-a-dire avoir le choix de diff6rentes solutions 
canoniques de placement. Par exemple : 

> Ordonnancement des calculs au plus tot, ou au plus tard. 

- Maximiser le paralieiisme, 

25 - Minimiser les communications, 

- Recouvrir les communications par les calculs, 

- Maximiser la locality des donn^es dans les diff^rents 
processeurs. 
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REVENDICATIONS 

1. Proc6d§ g§n6rique d'aide au placement d'une application de 
traitement de signal sur un calculateur ^ architecture parallele homog§ne. 
caracterise par le fait qu'il consiste. pour chaque constituant fonctionnel et 
physique de I'application. a §tablir un modele defini par un ensemble de 

5 relations sur les diff6rentes variables relatives a ce constituant. afin de 
mod6liser les contraintes. d r6soudre de fagon concun-ente les relations ainsi 
6tablies. et a en dfeduire au moins une solution, et a effectuer le placement 
de I'application. 

2. Proc6d§ selon la revendication 1. caract6ris6 par le fait que les 
10 diff6rents modeles mis en oeuvre sont : I'archltecture des processeurs dbles 

(2). la capacite de la memoire (3). le partitionnement des flots de donn§es 
(4). les communications inter-processeurs (5). le sequencement des calculs 
(6). le temps de calcul (7) et les entrees-sorties de signaux (8). 

3. Precede selon la revendication 1 ou 2. caract6rise par le fait 
15 qu'en cas d'obtention de plusieurs solutions, on choisit celle optimisant au 

moins un critere, le choix §tant fait de fagon heuristique. 

4. Proc6d6 selon I'une des revendications pr6c6dentes. 
caracl6rise par le fait que {'application est d§crite fonctionnellement par un 
graphe de flot de donn§es muttidlmensionnelles. 

20 5. Proc6d6 selon la revendication 4. caracteris6 par le fait que 

I'application est d6crite d partir de I'un des langages suivants le langage 
€ ARRAY-OL ». le langage ALPHA, un langage d§crivant un ensemble de 
nids de boudes parfaitement imbriques. le formalisme de description de type 
MD/SDF. 

25 
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